我们考虑了学习eoiSodic安全控制政策的问题,这最小化了客观函数,同时满足必要的安全约束 - 都在学习和部署期间。我们使用具有未知转换概率函数的有限范围限制的Markov决策过程(CMDP)的有限范围限制的Markov决策过程(CMDP)制定了这种安全约束的强化学习(RL)问题。在这里,我们将安全要求造型为关于在所有学习集中必须满足的预期累计成本的限制。我们提出了一种基于模型的安全RL算法,我们称之为乐观 - 悲观的安全强化学习(OPSRL)算法,并表明它实现了$ \ TINDE {\ MATHCAL {O}}(S ^ {2} \ SQRT {啊^ {7} k} /(\ bar {c} - \ bar {c} _ {b}))$累积遗憾在学习期间没有违反安全限制,其中$ S $是州的数量,$ a $动作数量,$ H $是地平线长度,$ k $是学习剧集的数量,$(\ bar {c} - \ bar {c} _ {b})$是安全差距,即,约束值与已知安全基线政策的成本之间的差异。缩放为$ \ tilde {\ mathcal {o}}(\ sqrt {k})$与学习期间可能违反约束的传统方法相同,这意味着我们的算法尽管提供了一个额外的遗憾安全保证。我们的主要思想是利用乐观的探索方法,以悲观的约束实施来学习政策。这种方法同时激励了未知国家的探索,同时对访问可能违反安全限制的国家施加罚款。我们通过对传统方法的基准问题进行评估来验证我们的算法。
translated by 谷歌翻译
自适应实例归一化(ADAIN)已成为样式注入的标准方法:通过通过缩放和迁移操作重新归一化功能,它发现在样式传输,图像生成和图像到图像转换中广泛使用。在这项工作中,我们提出了Adain的概括,该概括依赖于我们配音的美白和着色转化(WCT),我们将其申请在大型gan中申请样式注射。我们通过对Starganv2体系结构的实验来展示这种概括(尽管在概念上很简单,但在生成的图像的质量上都显着改善。
translated by 谷歌翻译
在很大程度上,由于隐私问题,很难培训有关疾病诊断或图像分割的医学图像的计算机视觉相关算法。因此,高度寻求生成图像模型以促进数据共享。但是,需要研究3-D生成模型,需要研究其隐私泄漏。我们使用在肿瘤面膜上进行条件研究的头和颈宠物图像介绍了3D生成模型横向gan(TRGAN)。我们为模型定义了图像保真度,实用性和隐私的定量度量。在培训过程中评估了这些指标,以确定理想的保真度,公用事业和隐私权权衡,并建立这些参数之间的关系。我们表明,Trgan的歧视者很容易受到攻击,并且攻击者可以识别哪些样品在训练中几乎完全准确(AUC = 0.99)。我们还表明,仅访问发电机的攻击者无法可靠地分类样品是否已用于训练(AUC = 0.51)。这表明Trgan发电机(而不是歧视者)可以用于共享具有最小隐私风险的合成3-D PET数据,同时保持良好的效用和保真度。
translated by 谷歌翻译
上下文匪徒的大多数非政策评估方法都集中在政策的预期结果上,该方法是通过最多只能提供渐近保证的方法来估算的。但是,在许多应用中,期望可能不是最佳绩效衡量标准,因为它不会捕获结果的可变性。此外,特别是在关键安全环境中,可能需要比渐近正确性更强的保证。为了解决这些局限性,我们考虑了对上下文匪徒的保形预测的新颖应用。给定在行为策略中收集的数据,我们建议\ emph {condormal非政策预测}(COPP),该数据可以在新目标策略下为结果输出可靠的预测间隔。我们提供理论有限样本的保证,而无需做出任何其他假设,而不是标准的上下文匪徒设置,并且与现有的合成和现实世界数据相比,经验证明了COPP的实用性。
translated by 谷歌翻译
Generating multivariate time series is a promising approach for sharing sensitive data in many medical, financial, and IoT applications. A common type of multivariate time series originates from a single source such as the biometric measurements from a medical patient. This leads to complex dynamical patterns between individual time series that are hard to learn by typical generation models such as GANs. There is valuable information in those patterns that machine learning models can use to better classify, predict or perform other downstream tasks. We propose a novel framework that takes time series' common origin into account and favors channel/feature relationships preservation. The two key points of our method are: 1) the individual time series are generated from a common point in latent space and 2) a central discriminator favors the preservation of inter-channel/feature dynamics. We demonstrate empirically that our method helps preserve channel/feature correlations and that our synthetic data performs very well in downstream tasks with medical and financial data.
translated by 谷歌翻译
对疾病的诊断或图像分割医学图像训练计算机视觉相关算法是缺乏训练数据,标记的样品,和隐私问题的困难所致。出于这个原因,一个强大的生成方法来创建合成数据后高度寻求。然而,大多数三维图像生成器需要额外的图像输入或者是非常占用大量内存。为了解决这些问题,我们建议调整视频生成技术3-d图像生成。使用时间GAN(TGAN)架构,我们将展示我们能够产生逼真的头部和颈部PET图像。我们还表明,通过调节肿瘤口罩发电机,我们能够控制肿瘤的几何形状和位置,在生成的图像。为了测试合成影像的用途,我们使用合成的图像训练分割模型。空调真实肿瘤掩模合成图像被自动分割,和对应的真实图像也分割。我们评估使用的骰子得分的分割,并找到两个数据集(0.65合成数据,0.70的真实数据)同样的分割算法执行。然后,各种radionomic特征在分割的肿瘤体积为每个数据集来计算。真实的和合成的特征分布的比较显示,8七个特征分布有统计学不显着差异(p> 0.05)。还计算所有radionomic特征之间的相关系数,它是示出了所有在真实数据组中的强统计相关的在合成数据集被保留。
translated by 谷歌翻译
无细胞大规模MIMO(CF-MMIMO)系统代表了提高无线通信系统的光谱效率的有希望的方法。然而,接近最佳波束成形解决方案需要在接入点(AP)和网络控制器(NC)之间的大量信令交换。在这封信中,我们提出了两个无监督的深度神经网络(DNN)架构(DNN)架构,完全和部分分布,可以在全数字和混合预编码之间进行分散的协调波束成形,其在AP和NC之间进行零或有限的通信开销。与传统的近最佳解决方案相比,所提出的DNN达到近最佳的总和速率,同时还通过10-24倍降低了计算复杂性。
translated by 谷歌翻译